CES 2026 — 推理时代与 Agentic AI
2026 年 1 月 6 日,黄仁勋在拉斯维加斯 CES 2026 发表主题演讲。这是一场近两小时的"马拉松"式 keynote,现场 3000 人座无虚席,场外 3000 余人通过分会场和流媒体同步观看。演讲回顾了 2025 年 AI 行业的爆发性进展,系统阐述了从预训练到推理时代的三阶段 scaling law、agentic AI 的崛起、物理 AI 的最新突破,以及 Vera Rubin 新一代超级计算平台的全面发布。
一、10 万亿美元的计算正在被 AI 重写
黄仁勋开场便抛出他标志性的宏大叙事:计算机产业每 10 到 15 年经历一次平台跃迁——从大型机到 PC,PC 到互联网,互联网到云,云到移动。但这一次,两个平台跃迁同时发生。
一方面,应用将不再"编写"而是"训练"出来,不再运行在 CPU 上而是运行在 GPU 上。过去的应用是预编译、预录制的,而现在的应用"理解上下文,每一次都从零开始生成每一个像素、每一个 token"。
另一方面,加速计算和人工智能彻底重塑了计算的五层蛋糕——芯片、系统、基础设施、模型、应用。
"过去十年部署的约 10 万亿美元的计算,现在正在被现代化为这种新的计算方式。每年数千亿美元的风险投资涌入,全球 100 万亿美元的产业正在把研发预算从传统方法转向人工智能。人们问'钱从哪里来?'——钱就从这里来。"
这是黄仁勋对"AI 泡沫论"最直接的回应:这不是泡沫,这是存量计算基础设施的代际更替。
二、Scaling Law 的三个阶段:从预训练到推理
黄仁勋梳理了 AI 发展的关键里程碑:2015 年 BERT、2017 年 Transformer、2022 年 ChatGPT 时刻。然后他重点讲述了 2023 年以来的质变:
第一阶段:预训练(Pre-training)——用海量数据让模型"学习"。
第二阶段:后训练(Post-training)——用强化学习让模型"习得技能"。不再是简单的监督微调或模仿学习,而是让计算机自己反复尝试,学习如何完成任务。
第三阶段:推理时计算(Test-time Scaling)——OpenAI 的 O1 模型是这个阶段的开端。黄仁勋说,这本质上就是"思考":
"不仅预训练让模型学习,后训练用强化学习让它习得技能,现在还有推理时计算——换一种说法就是'实时思考'。每一个阶段都需要巨量的计算,而计算的 scaling law 仍在持续。"
这三个阶段的叠加意味着 AI 对算力的需求呈指数级膨胀:模型参数每年增长一个数量级,推理时生成的 token 数量每年增长 5 倍,而上一代 AI token 的成本则以每年 10 倍的速度下降——这并非效率提升,而是竞争白热化的结果,每个人都在拼命冲向下一个前沿。
三、DeepSeek R1 与开源模型的爆发
2025 年最让黄仁勋兴奋的事件之一是 DeepSeek R1——第一个开源的推理系统:
"去年我们见证了 DeepSeek R1 的进展,这是第一个开源的推理模型。它让全世界大吃一惊,并且激活了整个运动。真的是非常、非常令人兴奋的工作。我们对此感到非常高兴。"
他坦承开源模型"仍然稳定地落后前沿模型约六个月",但每六个月就有新的开源模型涌现,而且"越来越聪明"。下载量在 2025 年爆炸式增长,因为初创公司、大公司、研究人员、学生,乃至"每一个国家"都想参与 AI 革命。
"数字形式的智能,怎么可能把任何人落下?"
黄仁勋还透露 NVIDIA 自己运营着数十亿美元规模的 DGX 超级计算机集群,用于开发自己的开源模型。他提到了 NVIDIA 在蛋白质(La-Proteina、OpenFold3、EVO 2)、天气预测(Earth-2)、语言模型(Nemotron 3,一种混合 Transformer-SSM 架构)等领域的前沿工作——所有这些模型和数据都完全开源。
四、Agentic AI:数字员工的时代
2024 年 agentic 系统开始萌芽,2025 年则"到处开花"。黄仁勋列举了 agentic AI 的核心能力:推理、查找信息、研究、使用工具、规划未来、模拟结果。
"我最喜欢的 agentic 模型之一叫 Cursor,它彻底革新了 NVIDIA 内部的软件编程方式。"
他分析了为什么 agentic 系统是 AI 应用的未来架构:
- 多模型(Multi-model)——一个 AI 应该能调用"世界上所有伟大的 AI"来解决问题链条中的每一个环节。他提到 Perplexity 是他第一次看到同时使用多个模型的系统,"我觉得这完全是天才"。
- 多模态(Multimodal)——语音、图像、文本、视频、3D、蛋白质。
- 多云(Multi-cloud)——模型散布在各处。
- 混合云(Hybrid cloud)——有些在边缘,有些在医院本地,有些在企业内部。
黄仁勋将 agentic AI 与企业平台的结合描述为一场界面革命:
"不再是 Excel 里一堆你填数据的格子,不再只是命令行。你和你的平台交互的方式变得更加简单——就像你和人交互一样。"
他列举了 Palantir、ServiceNow、Snowflake、CrowdStrike、NetApp 等企业合作伙伴正在将 NVIDIA 的 agentic 框架深度集成到各自的平台中。
五、物理 AI:从屏幕走进真实世界
黄仁勋投入了大量篇幅讲述 物理 AI——他认为这是 AI 下一个最重要的疆域。核心问题是:如何让一个"在计算机里聪明"的 AI 理解物理世界的常识?
"物体恒存——我看向别处再看回来,物体还在那里。因果性——我推它,它倒了。它理解摩擦和重力、惯性——一辆重卡要更长时间才能停下来,球会一直滚下去。这些对一个小孩来说是常识,但对 AI 来说完全未知。"
物理 AI 需要三台计算机:训练 AI 的计算机、推理(运行在汽车/机器人中的边缘计算机)、以及仿真计算机。仿真是 NVIDIA 的根基所在:
- NVIDIA Omniverse:基于物理的数字孪生仿真世界
- Cosmos:不是语言的基础模型,而是世界的基础模型——理解物理世界运作方式,并与语言对齐。它能从单张图像生成逼真视频,从 3D 场景描述生成物理一致的运动,从驾驶遥测数据生成环视视频,从规划模拟器生成多摄像头环境
- GR00T:人形机器人系统——关节运动、移动、行走
"Cosmos 是世界领先的世界基础模型。它已被下载数百万次,在全球范围内使用,为物理 AI 的新时代做好准备。"
黄仁勋特别强调了 Cosmos 的核心洞见:把计算变成数据。真实世界的数据稀缺且昂贵,但用基于物理规律的合成数据生成,可以有选择地、巧妙地生成训练数据。
六、自动驾驶:Alpamayo——会思考的自动驾驶 AI
NVIDIA 花了八年时间打造自动驾驶全栈,今天宣布 Alpamayo——世界上第一个"会思考、会推理"的自动驾驶 AI:
- 端到端训练:从摄像头输入到方向盘、刹车、油门输出
- 训练数据来自人类示范驾驶 + Cosmos 合成数据 + 数十万条精细标注
- 关键创新:它不仅执行动作,还推理自己即将采取的行动——告诉你它要做什么、为什么这么做、以及规划的轨迹
"驾驶的长尾问题使得我们不可能收集到每一种可能场景的数据。但每一个场景,如果被分解成一堆更小的场景,其实都是你能理解的正常情况。AI 只需要推理它。"
Alpamayo 已开源。NVIDIA 与梅赛德斯-奔驰合作五年,搭载 Alpamayo 的 CLA 已获 NCAP "世界最安全汽车"评级。黄仁勋宣布这辆车将于 2026 年 Q1 在美国上路,Q2 进入欧洲,Q3-Q4 进入亚洲。
该系统的安全设计值得注意:同时运行两套 AV 软件栈——Alpamayo(端到端 AI 栈)和一套完全可追溯的经典 AV 栈。安全策略评估器在两套系统之间动态切换,这是"世界上唯一一辆同时运行两套 AV 栈的汽车"。
七、机器人生态与工业 AI
黄仁勋请上了一群机器人"朋友"登台——它们内置 Jetson 计算机,在 NVIDIA Omniverse 的 Isaac Sim 和 Isaac Lab 中完成训练。他展示了 NVIDIA 合作的机器人生态:Nurabot、AGIBOT、LG、Caterpillar(最大型机器人)、Agility、Boston Dynamics、Franka、Universal Robotics 等。
在工业 AI 领域,NVIDIA 宣布与 Siemens 的深度合作——将 CUDA 平台、物理 AI、agentic AI、NeMo、Nemotron 深度整合进西门子的 EDA、CAE 和数字孪生工具链。同时与 Cadence、Synopsys 的合作也在深化:
"未来会有 agentic 芯片设计师和系统设计师与我们一起工作,帮助我们做设计——就像 agentic 软件工程师今天帮助我们的软件工程师写代码一样。"
八、Vera Rubin:六芯片极端协同设计
这是本次 keynote 的硬件重头戏。黄仁勋先介绍了 Vera Rubin 名字的来源——美国天文学家 Vera Rubin 发现了暗物质的存在。然后他进入了技术细节。
为什么需要每年更新? 模型每年增长 10 倍,token 生成量每年增长 5 倍,token 成本每年下降 10 倍——但 摩尔定律已死,每年能增加的晶体管数量大约只有 1.6 倍。仅靠堆晶体管不可能跟上。
答案是 Extreme Co-Design——同时重新设计所有六颗芯片:
- Vera CPU:88 核、176 线程(空间多线程技术),在功耗受限的世界中,性能每瓦是竞品的两倍
- Rubin GPU:浮点性能是 Blackwell 的 5 倍,但晶体管数量仅为 1.6 倍。秘密武器是 NVFP4 Tensor Core——一个能动态自适应调整精度的处理单元,在可以牺牲精度的地方获得更高吞吐,在需要精度的地方回到最高精度
- ConnectX-9 NIC:每 GPU 1.6 Tbps scale-out 带宽
- BlueField-4 DPU:卸载存储和安全计算,并承载全新的 KV cache 上下文内存管理
- NVLink 6 交换机:400 Gbps SerDes,机架内带宽相当于全球互联网流量的两倍(240 TB/s vs 全球约 100 TB/s)
- Spectrum-X 以太网光子交换机:512 端口、200 Gbps 共封装光学,基于 TSMC 共同创新的 Coop 硅光子工艺——世界上第一颗量产硅光子集成交换芯片
Vera Rubin NVL72 机架:18 个计算节点、72 颗 Rubin GPU、9 个 NVLink 交换托盘、2200 亿晶体管、近两吨重。从 43 根线缆简化到零线缆,从 2 小时组装简化到 5 分钟。100% 液冷,入水温度 45°C,无需水冷机,用"热水"冷却超级计算机。
关键性能指标:
- 训练:以 DeepSeek++ 10 万亿参数模型为基准,Rubin 只需 Blackwell 四分之一的系统即可在一个月内完成训练
- 工厂吞吐:比 Blackwell 再提升约 10 倍(Blackwell 已比 Hopper 提升 10 倍)
- Token 成本:降至约十分之一
- 全系统机密计算:所有总线(PCIe、NVLink、CPU-GPU、GPU-GPU)全部加密
黄仁勋还宣布了一个全新品类:KV Cache 上下文内存存储。随着对话变长、模型变大、用户变多,HBM 已经不够用。Vera Rubin 机架内集成了 BlueField-4 驱动的上下文内存节点,每 GPU 额外提供 16 TB 上下文内存,由 Dynamo KV cache 管理系统运行,直接挂在东西向 Spectrum-X 网络上。
"今天,我可以告诉你们,Vera Rubin 已经在全面量产中。"
黄仁勋还展示了路线图:GB200 一年半前开始出货,GB300 目前全面量产,Vera Rubin 紧随其后。
九、Token 经济学与数据中心即工厂
贯穿整场演讲的经济学逻辑可以提炼为:
- 数据中心是生产 token 的工厂(AI 工厂)
- 一座千兆瓦数据中心造价约 500 亿美元,只能消耗 1 GW 电力
- 你的吞吐量/瓦特直接等于你的收入
- Spectrum-X 带来 25% 的额外吞吐——在 500 亿美元的数据中心里,这价值 50 亿美元,"网络基本上是免费的"
- Vera Rubin 系统功耗翻倍但能效翻倍以上,节省全球数据中心约 6% 的电力
这就是 Token 经济的底层逻辑:每一代硬件的使命是让下一代前沿模型成为可能,同时让上一代 token 的成本暴跌。
十、NVIDIA 的全栈愿景
演讲结尾,黄仁勋回到全局视图:
"NVIDIA 不只是造芯片。AI 是一个完整的栈。我们正在从芯片到基础设施、到模型、到应用,全面重新发明 AI。我们的工作是创建整个栈,让你们所有人都能为世界创造不可思议的应用。"
从 OpenAI 是当今最大的 token 生成者,到开源模型终将成为最大阵营;从 Cadence 和 Synopsys 的 EDA 革命到 Siemens 的工业数字孪生;从梅赛德斯-奔驰的自动驾驶到人形机器人的涌现——黄仁勋描绘的是一幅 NVIDIA 作为"AI 时代的基础设施公司"的完整图景。
他用一句轻松的话结尾:"我唯一的请求是——无论你做什么,尽量用一点点 NVIDIA。"
原文出处:Rev.com 完整转录稿